今日事項:
透過圖像模型的發展,了解現代不同類別圖像模型的演變、特點,以及演進的軌跡。
如果文章對你有幫助的話,歡迎按讚或留言,讓我知道我不是一個人在這裡碎碎念(?),我會很感謝的❤️
如果說語言模型的成長是由小到大、從單純的背答案到有感情、會思考,那圖像模型的變化就更有趣了一些。
(在技術有標記紅字的是重要技術出現的時間點)
年份 | 技術 / 模型 | 團隊 / 論文來源 | 主要突破 / 意義 |
---|---|---|---|
2014.06 | GAN (Generative Adversarial Network) |
開啟生成式模型時代,以對抗訓練方式 生成逼真圖片。 |
|
2018.03 | Progressive GAN (PGGAN) | NVIDIA | 首次實現可生成高解析人臉圖像(1024×1024)。 |
2018.12 | BigGAN | DeepMind | 提升生成品質與穩定性,能生成多樣真實感圖像。 |
2019.02 | StyleGAN | NVIDIA | 可分離內容與風格控制,帶動 AI Portrait(AI 肖像) 熱潮。 |
2020.12 | DDPM (Denoising Diffusion Probabilistic Models) |
UC Berkeley / Google | 擴散模型誕生,成為後來 Diffusion 類技術基礎。 |
2021.01 | DALL·E 1 | OpenAI | 首次用「文字描述 → 圖像」 生成,開啟 Text-to-Image 時代。 |
2021.05 | CLIP (Contrastive Language–Image Pretraining) |
OpenAI | 建立文字與圖像對齊橋樑,成為 Diffusion 模型基石。 |
2022.07 | Stable Diffusion v1.4(開源) | Stability AI + CompVis | 以 Latent Diffusion 為基礎,開啟開源 繪圖革命。 |
2022.07 | Midjourney v1 | Midjourney | 推動藝術風格 AI 圖像生成浪潮 。 |
2022.09 | DreamBooth | Google Research | 「個人化微調」技術誕生,可訓練 AI 記住特定人物或風格。 |
2022.11 | LoRA (Low-Rank Adaptation) |
Microsoft Research | 輕量化微調 技術,讓個人可快速定制模型,成為 Stable Diffusion 微調主流。 |
2023.02 | ControlNet |
Lvmin Zhang(斯坦福 / 微軟) | 可用線稿、深度圖、姿勢圖控制生成圖像 ,解決“畫不準”的問題。 |
2024.10 | Flux 1 | Black Forest Labs(前 Stability 成員) | 多模態繪圖模型,延續 SD 開源血統,支援高度可控風格。 |
生成對網絡(GAN, Generative Adversarial Network)由Ian Goodfellow
等人在 2014 年提出,開啟了圖像生成模型的新時代。
說起來,這個 GAN 的誕生也是來自於一個神奇的靈光一閃。好像很多人類歷史上偉大的發明都來自於奇怪的想法?
Ian Goodfellow 在那時還是一個蒙特婁大學的博士生,某天在酒吧跟朋友聊天的時候,有朋友請他幫忙看看有關電腦生成圖片的項目。
當時他們利用神經網路
的方式來進行電腦生圖,但結果不是臉模糊就是身體缺了一點零件。
這種模型的訓練方式,簡單來說就是給 AI 很多很多資料,比如要生成貓的話,給他看過很多貓的資料後,較他生成貓,他就會用曾經看過的那些資料來模擬,簡單來說就是背好答案之後抄出來。
這有點像是文字生成,但文字生成出來,有一兩個字不對勁沒什麼,不過圖像生成,有一兩個地方不對勁那就真的很不對勁
……比如缺胳膊少腿。
Ian Goodfellow 在酒吧裡喝酒,喝著喝著突然跳出了一個想法,如果不是單純只有一個神經網絡模型,而是兩個,他們一個造假、一個辨假
,是不是會有不一樣的結果?
如果只有一個模型的話,自己摸索,根本不知道什麼叫做「好圖片」,但如果讓另一個模型一起加入進來,兩邊都可以在過程中成長
,一個越來越會騙,一個月來越會看,這不是比人工來看要簡單多了?
當時在酒吧的時候,Ian Goodfellow 就跟朋友們說了這個想法,但朋友們抱著懷疑態度,甚至他自己在後來也覺得自己在清醒的時候不會認為這想法可行
。畢竟訓練一個神經網絡就夠難了,你還要再額外訓練一個,然後互相學習指證,根本就不可能。
但眾所皆知,他那天喝了酒……所以他回家之後就把電腦打開來試了。(感謝酒精的貢獻)
然後他為了這個很天馬行空的想法,寫代碼寫到了凌晨,進行測試,沒想到竟然出來了結果,雖然很小而且非常模糊,但的確有了起點。
GAN 就這樣水靈靈的出現了!
(也不知道他的朋友知道了之後有沒有想揍他的感想?)